Application de modèles d’apprentissage machine à la classification des macromycètes

Emir Kaïs RIHANI

Introduction et objet de l’étude

Objet de l’étude

  • “Application de modèles d’apprentissage machine à la classification des macromycètes”
    • Apprentissage machine
    • Classification
    • Macromycètes

Notion de macromycète

Macromycètes

  • Macro-Mycète = “grand champignon”
  • Le champignon (mycélium) est en réalité quasi-invisible et intimement lié à son substrat
  • La partie visible du champignon est le sporophore

Critère de forme

Critère de couleur

Critère de texture

Critère écologique

  • Le champignon fait partie d’un écosystème
    • Hétérotrophie, interactions avec l’environnement

Caractéristiques du sporophore

Notion de classification

Classification

  • Classification binaire : 2 classes
    • Comestible ou non ?
    • Définition précise du critère
  • Classification multiclasse : > 2 classes
    • Familles
    • Espèces
    • Syndromes ?

Notion de comestibilité

  • La comestibilité se situe sur un continuum :
    • Excellents comestibles : Tuber spp., Amanita caesaria
    • Comestibles : Agaricus arvensis
    • Comestibles cuits : Morchella spp.
    • Comestibles médiocres : Boletus felleus
    • Toxiques en grandes quantités : Tricholoma equestre
    • Toxiques : Amanita muscaria
    • Mortels : Amanita phalloides, Amanita virosa

Notion de comestibilité

C+ C CC C- T- T T+
Prudent
Gourmand
Toxicologue
  • Critères du “gastronome prudent”
    • Toxiques et comestibles médiocres : à rejeter
    • Comestibles cuits : à conserver (morilles !)

Notion d’apprentissage machine

Généralités

Analyse Discriminante Linéaire

Arbres de classification

Forêts aléatoires

Optimisation des modèles

  • Indicateur de performance
    • Indice de Youden pondéré (\(J_{w} \geq 0.999\))
      • Indice synthétique pondérant spécificité et sensibilité
      • 10x plus grave d’accepter un non-comestible
    • Kappa (\(\kappa > 0.80\))
      • Probabilité de prédiction exacte vs hasard
  • Exploration de l’espace des hyperparamètres
    • Plans d’expériences

Plans hypercubiques latins

  • Plan d’expérience de type Space-Filling Design
    • 1 ligne + 1 colonne = 1 expérience

Carré latin aléatoire (à gauche), optimisé (au milieu), quasi-orthogonal (à droite)

Génération du lot de données

Construction du lot de données

  • 398 espèces de champignons du Nord de la France

    • 25 critères caractéristiques
      • 22 critères qualitatifs
      • 3 critères quantitatifs
      • Espèce, famille, comestibilité
  • 200 spécimens par espèce : 79600 champignons

  • Tirage aléatoire des critères qualitatifs parmi les critères possibles pour chaque caractéristique et chaque espèce

Génération des critères quantitatifs

  • Critères dimensionnels :
    • Diamètre du chapeau \(D_{c}\),
    • Diamètre du pied (stipe) \(D_{S}\),
    • Hauteur du pied (stipe) \(L_{S}\).
  • Proportionnels, liés à la croissance du champignon \(F_{C}\). \[\left \{ \begin{array}{l} L_{S} = L_{S_{max}}.F_{C} \\ D_{S} = D_{S_{max}}.F_{C} \\ D_{C} = D_{C_{max}}.F_{C} \\ \end{array} \right.\]

Génération des critères quantitatifs : loi bêta

Induction de variabilité

  • Champignons générés “parfaitement proportionnés”
  • Nécessité d’induire des variations (dispersion \(\delta~\))

\[\left \{ \begin{array}{ll} L_{S} = L_{Smax}.F_{T}.\delta_{Ls} & \delta_{Ls} \sim \mathcal{N}(\mu = 1 ; \sigma = 0.05) \\ D_{S} = D_{Smax}.F_{T}.\delta_{Ds} & \delta_{Ds} \sim \mathcal{N}(\mu = 1 ; \sigma = 0.05) \\ D_{C} = D_{Cmax}.F_{T}.\delta_{Dc} & \delta_{Dc} \sim \mathcal{N}(\mu = 1 ; \sigma = 0.05) \\ \end{array} \right.\]

Induction de variabilité

Induction de variabilité

Classification binaire

Algorithme de classification

  1. Découpage lots d’entraînement/optimisation/évaluation,
  2. Apprentissage sur lot d’entraînement,
  3. Exploration de l’espace des hyperparamètres,
  4. Mesure et modélisation des performances,
  5. Sélection des meilleurs hyperparamètres,
  6. Mesure de performance des meilleurs hyperparamètres,
  7. Sélection des meilleurs modèles, évaluation finale.

LDA

  • Algorithme rapide (\(t_{moy} =\) 3.34 à 10.38 min)
  • Performances prédictives insuffisantes (\(J_{w} \approx 0.956\))

Dix premiers facteurs de LDA prédisant la non-comestibilité des champignons

LDA

A.phalloides, “Calice de la Mort”

A.virosa, “Ange de la Mort”

Arbres décisionnels

Sensibilité (à g.) et spécificité (à d.) de rpartCost en fonction de la complexité et du coût

Arbres décisionnels

Indice de Youden pondéré de rpartCost en fonction de ses hyperparamètres

Arbres décisionnels

Arbres simplifiés, optimisant la sensibilité (à g.) ou la spécificité (à d.)

Arbres décisionnels

Structure arborescente complète

Arbres décisionnels

  • Arbres interprétables par l’humain,
  • Performances prédictives et calculatoires correctes. \[\left \{ \begin{array}{l} J_{w_{Rpart}} = 0.9966 \\ J_{w_{RpartCost}} = 0.9943 \\ J_{w_{c5.0tree}} = 0.9989 \\ \end{array} \right.\]

Forêts aléatoires

Sensibilité (à g.) et spécificité (à d.) du modèle Rborist

Classification par espèces

Arbres décisionnels

Performances de rpart, en fonction du paramètre de complexité

  • Performances médiocres ($$ 0.80)

Forêts aléatoires

Performances des modèles Ranger (à g.) et Rborist (à d.)